來研究一下分詞的作業相關設定
mixseg
預設為混合模型 ( MixSegment )
其他的說明
Default Method -> 指分詞引擎 (可調)
Detect Encoding : TRUE -> 確認 Encoding
Default Encoding: UTF-8 -> Encoding 可用 UTF-8
Keep Symbols : FALSE -> 要不要保留標點符號
Output Path -> 輸出路徑 (路徑若有錯,會整個關掉)
Write File (可否寫入) : TRUE
By Lines (按行輸出) : FALSE
Max Word Length (最大字串長度): 20
Max Read Lines (最大行數) : 1e+05
實作一下,可調整的部分,調整方式:
#以調整By Line設定為例
#先指定另一個引擎來測試比較用
mixseg1=worker()
mixseg1$bylines=TRUE #是否按分行處理
new_user_word(mixseg1,'簡單的小情歌',"n") # "n" 是賦於給他的詞性
再來,可以調整停用字集
#調整
mixseg1=worker(stop_word = "/Users/Username/Documents/stop.txt")
mixseg1
要注意執行時檔案的編碼處理
還有檢查一下更改的結果
看一下結果比較吧!
mixseg["這是一首簡單的小情歌"]
mixseg1["這是一首簡單的小情歌"]